技術問答
技術文章
iT 徵才
Tag
聊天室
2025 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
12
0
AI & Data
今晚,我想來點經典NLP論文。
系列 第
12
篇
[D12] Dynamic topic models (Blei and Lafferty, 2006) 2/2
12th鐵人賽
victor.huang
2020-09-26 20:21:46
891 瀏覽
分享至
Key Points
前略。
資料集:
用 1881年 到 1999年 的 Science 期刊。(!)
資料源在
這裡
。
每年抽出 250 篇文章出來,總共三萬篇。
前處理:
stemming。
移除出現次數少於 25 次的文字。
最終字典大小:15,955字。
實驗1:
設定 20 個主題的模型。
以上的兩張圖來自於兩個主題,每張圖分成三部分:
(上):120 年來該主題的變化。
(下左):文字的後驗機率(每張圖三個字,注意三個字的量級不一定一樣(作者也沒給單位))。
(下右):每年相關的文章。
實驗2:
測試是否能基於時間點 t 的模型預測時間點 t + 1 的文章。
這裡的預測是用 variational bound 來衡量,算出下一年文章的 negative log likelihood 總和。
三種模型:
DTM (本文)
用過去所有年份的資料 (t0 ~ t) 訓練出來的 LDA 。
用過去一年的資料 (t) 訓練出來的 LDA 。
結果:
可以看到 DTM 的數值最低表現最好。
Thoughts
不知道是不是因為 t 是 t-1 的函數,每年的文字變化還蠻細微的。
蠻多重複的字一再出現,如 theory,有點好奇在 science 這樣的文本中,theory 這個詞不會出現在各個 topic 裡嗎?
Matter 這個詞逐漸式微,和下面的 nerve 被 neuron 比下去一樣。研究的客體總是單位越來越小,越來越精確?
quantum 這個詞展現了什麼叫做文藝復興,應該也要拿 ML 相關的文章來做做看,看是否 Neural Network 也是這樣的趨勢。
留言
追蹤
檢舉
上一篇
[D11] Dynamic topic models (Blei and Lafferty, 2006) 1/2
下一篇
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
系列文
今晚,我想來點經典NLP論文。
共
17
篇
目錄
RSS系列文
訂閱系列文
1
人訂閱
13
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
14
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
15
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
16
[D16] Emotion Intensities in Tweets (2017) 1/2
17
[D17] Emotion Intensities in Tweets (2017) 2/2
完整目錄
熱門推薦
{{ item.subject }}
{{ item.channelVendor }}
|
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
902
組
團體組數
37
組
累計文章數
19866
篇
完賽人數
529
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
17th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
linux
windows server
css
react
熱門問題
.NET C# 資料庫 CRUD 專案,實務上會怎麼安排單元測試 / 整合測試?xUnit 可以直接拿來寫整合測試嗎?
關於中華nokia數據機DHCP問題
.NET FRAMEWORK 3.5 安裝
OUTLOOK無法搜尋、無法建立索引且無法執行Windows Search
鼎新ERP WorkFlow GP3升級到AiGP
不能關機
Fortigate防火牆的選擇??
k8s CKS/CKAD 這兩張推薦去考嗎?
Windows更新像跑馬燈以致無法進入桌面
還能怎麼加固安全?
熱門回答
.NET FRAMEWORK 3.5 安裝
鼎新ERP WorkFlow GP3升級到AiGP
Fortigate防火牆的選擇??
關於中華nokia數據機DHCP問題
.NET C# 資料庫 CRUD 專案,實務上會怎麼安排單元測試 / 整合測試?xUnit 可以直接拿來寫整合測試嗎?
熱門文章
再見了 Ingress NGINX
[技術實戰] 拒絕雲端洩密!我用 Docker + Llama 3 打造工程師專用的「100% 離線」AI 研發資料庫
坊間ISO課程個人理解
【2025 最強 AI IDE】Kiro Spec Mode:30 分鐘從 0 做出可部署 AWS 專案,VS Code 真的要掰了
Excel下拉選單自訂秘技,資料篩選更快速
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}